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摘 要 : 机 器 阅读 理解 中 的 答案 获取 是 根据 问题 选择 或 者 抽象 释义 出 文章 中 的 内 容 ， 但 得 到 的 序列 容易 出 现 表 述 不 
准确 与 信息 宛 余 的 问题 。 针 对 机 器 阅读 理解 任务 中 的 答案 获取 提出 一 种 序列 生成 模型 SGN。 首 先 ，SGN 4E TRAE 
阵 空 间 获取 问题 与 文章 的 匹配 表示 ， 并 参照 潜在 的 问题 信息 ， 生 成 当前 节点 的 词 向 量 ; 然后 ， 使 用 一 个 选择 门 结构 
从 文章 或 者 字典 中 选择 当前 词汇 ， 并 且 自 发 学 习 和 归纳 OOV (outof-vocabulary) 单词 ， 解 决 语义 表述 不 准确 的 问 
题 。 最 后 ， 使 用 改进 的 覆盖 机 制 ， 消 除 生成 序列 中 的 宛 余 问题 ， 从 而 提高 可 读 性 。 实 验 通 过 人 工 数据 集 SQUAD 进 
行 验证 ， 其 结果 表明 ， 在 阅读 理解 任务 上 SGN 生成 的 目标 序列 与 基准 模型 Seq2Seq 相 比 可 读 性 更 加 优异 ， 并 且 与 
原文 语义 更 贴近 。 

关键 词 : 答案 获取 ; 序列 模型 ; OOV. 履 盖 机 制 
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Sequence generation model for answer acquisition to machine reading comprehension 
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(1. School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 
200093, China; 2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China) 


Abstract: Answer acquisition to Machine Reading Comprehension focuses on problem selection or abstract interpretation 


=ð of the content of the article, but the sequence obtained is prone to problems of inaccurate representation and redundant 
: information. A sequence generation model SGN is proposed for answer acquisition in the machine reading comprehension 
task. First, the SGN obtains the matching expression between problem and article in problem matrix space, and refers to the 
potential problem information to generate the word vector of the current node. Then, using a selection gate structure to 
select the current vocabulary from the article or dictionary, and spontaneously learns and generates OOV (Out- 
Of-Vocabulary) word to solve the problem of inaccurate semantic representation. Finally, use improved Coverage 
Mechanism to eliminates redundancies in the generated sequence and improve readability. The experiments adopt the 
artificial data set SQuAD. The results show that the target sequence generated by SGN is more readable than the benchmark 
model Seq2Seq and is closer to the original semantics. 


Key words: answer acquisition; sequence generation model; OOV(out-of-vocabulary); coverage mechanism 


TT include..." , jH] d “In what year will the Barack Obama 

0 引言 Presidential Center be finished?”， 机 器 给 出 的 答案 为 “2020”。 
机 器 阅读 理解 任务 是 指 让 计算 机 阅读 、 理 解 一 篇 文章 ， 但 从 问题 和 目标 答案 的 语义 与 结构 可 以 看 出 ， 标 准 答案 结构 
然后 针对 与 文中 信息 相关 的 问题 给 出 答案 。 针 对 回答 方式 ， 应 该 为 "In 2020”， 所 以 解决 机 器 阅读 理解 任务 中 的 答案 生成 


可 以 分 为 填空 型 阅读 理解 与 问答 型 阅读 理解 两 种 形式 由 。 问 问题 ， 需 要 在 阅读 原文 的 基础 上 ， 理 解 问题 的 疑问 词语 义 才 
答 型 阅读 理解 中 以 “what”when”how many” 等 疑问 词 提 问 。 能 获取 问题 答案 。 

有 的 问答 型 阅读 理解 问题 答案 仅 包 含 一 个 词汇 ， 其 处 理 过 程 基于 软 注意 力 机 制 的 Seq2Seq 网 络 BI 能 重新 访问 输入 序 
与 填空 型 阅读 理解 相 类 似 , 但 对 于 复杂 问题 (如 “why™how” 列 ， 注意 力 机 制 能 动态 选取 输入 序列 中 的 列 向 量 ( 即 输 
等 疑问 词 开 头 的 疑问 句 ), 需要 结合 文 推理 获取 问题 答案 入 的 每 个 词 向 量 )， 从 而 对 输入 序列 进行 压缩 。 现 有 的 基于 


外。 在 问答 型 阅读 理解 任务 上 ， 机 器 给 出 答案 的 准确 度 与 人 Seq2Seq 的 答案 获取 技术 可 以 分 为 两 类 ， 一 类 结合 Pointer 
的 准确 度 相 接近 ， 但 是 机 器 生成 问答 型 阅读 理解 答案 时 ， 依 Network IRRE R MEERI, 另 一 类 则 是 对 输入 的 文章 
旧 存 在 答案 语义 与 问题 句法 间 存 在 表述 不 一 致 的 问题 ， 如 文 词 向 量 进 行 概括 ， 结 合 问题 的 语义 信息 ， 对 多 个 相关 或 相似 
章 “With an estimated completion date of 2020, the Barack 的 词 向 量 ; 


时 进行 抽象 生成 ， 获 得 一 个 简要 的 序列 驻 轧 。 使 用 第 
Obama Presidential Center will be housed at the university and 二 种 方法 获得 的 答案 序列 ， 容 易 将 原 序 列 中 多 次 出 现 的 重要 


收 稿 日 期 : 2018-08-12; 修 回 日 期 : 2018-10-08 ”基金 项 目 : 国家 自然 科学 基金 资助 项 目 (61003031); 上 海 重 点 科技 攻关 项 目 〈14511107902) ; 
上 海 市 工程 中 心 建设 项 目 (GCZX14014); 上 海 市 一 流 学 科 建设 项 目 CXTKX2012); 上 海 市 数据 科学 重点 实验 室 开放 课题 资助 课题 (201609060003); 沪 
江 基 金 研究 基地 专项 项 目 (C14001) 

作者 简介 : Ek (1979-)， 女 ， 副 教授 ， 博 士 ， 主 要 研究 方向 为 数据 管理 、 数 据 分 析 及 数据 挖 据 ; 邹 依 婷 (1994)， 女 ， 硕 士 ， 主 要 研究 方向 为 自然 
语言 处 理 ; 金 轩 城 《1995-)， 男 ， 学 士 ， 主 要 研究 方向 为 大 数据 ; 3845 (1995-)， 男 ， 学 士 ， 主 要 研究 方向 为 大 数据 ; 薛 瑶 环 〈1993-)， 女 ， 硕 士 
要 研究 方向 为 自然 语言 处 理 . 


E 


201901.00060v1 


chinaXiv 


录用 定稿 


W E - Eh 
面临 OOV Cout-of-vocabulary) 问题 ， 


解 模型 都 


预测 目标 答案 时 , Seq2Seq 模型 不 


从 而 得 不 到 目 


因此 ， 在 避免 信息 见 余 的 条 件 下 ， 通 过 高 度 概括 阅读 理 
并 准确 表示 问题 答案 ,是 个 
本 文 在 Seq2Seq 模型 的 基础 上 


解 的 文章 信息 


标 词 向 量 031。 


Di 


RE RERO h F 


X, 3: 一 种 针对 机 器 


上 ， 从 而 产生 信息 元 余 。 此 外 ， 大 部 分 阅读 理 


以 外 的 词汇 


即 模型 解码 


1.2 Match-LSTM 框架 
由 Wang $ AUS pg H 
Clong-short term memory) 09 框 架 ,， 用 来 处 理 文本 蕴涵 问题 ， 


则 在 判断 假设 句 的 含义 能 否 根 扩 


Match-LS 


是 出 一 种 改进 


有 挑战 性 的 任务 。 


的 答案 


问题 序 


列 生 成 模型 SGN (sequence generation network )。 针 对 答案 获 


取 问 题 ， 首 4 
Seq2Seq 模型 


题 空 间 投影 矩阵 和 


的 词 向 量 前 ， 
JW. A-H 


t, SGN fi) 


改进 日 


f Match-LSTM 网 络 替 换 


的 编码 层 ， 改 进 的 Match-LSTM 能 用 文章 在 问 


[原文 章 向 量 和 矩阵 ， 获 取 


设计 一 个 选择 门 结构 ， 一 方 


词汇 ， 以 便 模型 能 准确 解码 OOV 词汇 ; 
成 序列 中 产生 信 
(coverage) JjLfi 


息 匈 余 的 问题 
14] 


的 基础 上 解码 当前 节点 词汇 。 


本 文 的 贡献 主要 有 如 
型 SGN, 在 文章 与 问题 匹 本 


下 三 点 : 


的 基础 上 , A) 


包含 问题 与 文章 特 


征 的 匹配 表示 矩阵， 其 次 ， 在 匹配 表示 与 预测 当前 节点 相应 


面 决定 当前 词汇 来 


最 后 ， 


面 让 模型 自学 习 和 归纳 预测 过 程 中 产生 的 OOV 


为 了 解决 生 


，SGN 使 用 


， 让 SGN 模型 可 以 在 之 前 输出 词 向 量 


a) 提出 了 一 种 序列 生成 模 


解决 生成 序列 中 


选择 概率 选择 基于 匹配 表示 的 词 ; 


El 


4o 


1 Ss 


1.1 


机 器 阅读 理解 中 ， 通 常用 
将 阅读 理解 任务 ， 其 中 ，2 


言 息 见 余 和 表述 不 准 


节点 生成 的 方式 ， 
E 确 的 问题 ; b) SGN 使 用 
一 个 选择 门 结构 计算 当前 节点 的 词 向 量 和 选择 概率 ， 并 利用 


识 


问题 定义 


实 性 问题 ; 


A=(w,wW, MA 


D 2 (ww, Wo) 表示 


三 元 组 <Q, D, A» 的 形式 措 
D 


C, XJ OOV 单词 进行 学 习 
并 归纳 到 字典 。 因 为 每 次 仅 生 成 一 个 词汇 ， 所 以 能 解决 生成 
序列 过 程 中 产生 的 语义 表述 问题 ; c) SGN 模型 使 用 了 改进 的 
覆盖 机 制 , 对 SGN 模型 的 解码 层 进行 修正 ,能够 在 已 经 输出 
的 词汇 上 解码 当前 词汇 ， 从 而 消除 4 


成 序列 中 产生 的 元 余 信 


= (Wi, Wy... Mg) 表示 HJ 被 H 答 的 


) 表示 问题 答案 ; 


章 以 及 答案 中 所 包含 的 单词 个 数 。 


题 信 息 进 行 二 


可 答 问 题 时 参 


考 的 文章 ; 


121、121 和 14| 表 示 问 题 、 文 


问答 型 阅读 理 


解 需要 对 问 


当 的 推理 ， 再 


生成 答案 ， 即 PC412,D) ; 然后 ， 使 用 模型 最 终生 成 的 序列 与 
目标 序列 的 匹配 程度 来 评估 模型 生成 序列 的 能 
It is difficult to 
sun AAAAA 
解码 层 N 


对 检索 到 的 文章 片段 进行 归纳 、 


标准 注意 力 机 
与 假设 两 个 句子 并 进 
对 错误 


N 


HLOH ; 


Ey 
2 
2.1 


成 。 


点 单词 生成 ， 
目标 函数 。 基 
汇 在 问题 空间 


1 练 时 学 到 


阅读 理解 中 答案 获取 的 序列 生成 模型 


TM 是 


制 ， 使 


图 1 
Fig. 1 


Match-LSTM 网 络 图 
Match-LSTM network 


m, =[ 


ChinaXiv 合 作 期 刊 


的 一 个 LSTM 


第 37 卷 第 3 期 


昌 前 提名 推断 而 
] Match-LSTM 逐 字 匹配 词 嵌 入 的 前 
行 分 类 。 此 外 ，LSTM 中 的 记忆 单元 


a, 
jl 


i” = o(W"m, +V" h”, +b") 
f= owm, yn ho b") 


o” - cG(W"^m, +V "he +b”) 


m_ pm m 
e = fe O Cga t 


i" © tanh(W”°m, +V” hr. +b") 


0o 是 功能 函数 sigmoid; O 是 
此 外 ， 所 有 的 权 值 矩 阮 


o 


SGN 模型 
模型 概览 


图 2 为 SGN 模型 


Acne 


h” = o" © tanh(c?) 


来 。 模 型 使 


RE RH a 


(1) 


Q) 
3) 
(4) 


(5) 
(6) 


个 向 量 元 素 间 的 点 乘 。 
EZ. w 与 Y 和 权 值 向 量 参数 上 都 可 以 


i 


4l 


UNTER. ph 


与 解码 层 构 


介绍 SGN 的 基于 Match-LSTM 


的 编码 层 、 节 


于 Match-LSTM 的 编码 


的 向 量 表示 ， 节 点 单词 生成 是 根据 原文 的 上 下 


resolve 


/s It 


图 2 SGN 模型 概览 


Fig.2 SGN model 


以 及 改进 的 覆盖 机 制 , 最 后 给 出 了 SGN 模型 的 


文 表示 向 量 以 及 解码 层 隐 含 状 态 生 成 当前 位 置 的 词汇 ， 改 进 
的 覆盖 机 制 是 用 来 解决 生成 序列 中 信 


层 获 取 文 章 中 的 每 个 词 


息 见 余 问 题 。 
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2.2 gu p, = sigmoid (V (Vd, Wh, -- b) - b") (18) 


2.2.1 Match-LSTM 的 编码 层 
基于 Match-LSTM 的 编码 层 采 用 一 个 双向 LSTM 网 络 对 
词 嵌 入 输出 进行 编码 。 采 用 双向 LSTM 网 络 能 在 隐 含 层 保存 


ai 
EE 
lk 


通过 这 个 门 操作 ， 模 型 能 准确 地 选择 单词 词汇 ， 并 将 其 
li. i nt git 忆 守 -0 时， 生成 序列 中 第 + 个 位 置 的 


每 个 词 的 前 向 状态 以 及 后 向 状态 ， 即 最 后 输出 的 隐 含 层 保存 
的 是 基于 全 文 的 状态 。 经 过 双向 LSTM GiLSTM) 后 ， 问 题 与 文 
章 的 隐 含 层 状 态 为 


ho BILSTM (Q); h, -BILSTM (D) (7) 


其 中 : DE UO EDS EZ 7I PER; 文章 的 隐 含 状态 表示 


J h eR", 
为 了 提升 模型 的 计算 效率 ， 本 文 简化 了 Match-LSTM 网 

络 设计 的 注意 力 机 制 ， 计 算 方 式 如 式 〈8) 所 示 。 
A = soft max((W,/h, + b, ® eo) ° hp) (8) 


其 中 : WQeR". bem 是 模型 学 习 所 获得 的 参数 ， 如 @eo 的 


结果 为 列 向 量 名 重复 /次 形成 一 个 !x: 的 矩阵 ， 形 成 大 小 为 
Ixl 的 和 矩阵。 使 用 注意 力矩 阵 A emt? 获取 文章 中 每 个 词汇 在 
整个 问题 空间 上 的 向 量 表示 为 


ho=ho ° A (9) 


其 中 :he RW” 。 此 时 文章 中 的 每 个 词 都 由 整个 问题 表示 ， 即 
hy 中 每 个 行 向 量 为 文章 中 的 词 都 是 在 整个 问题 空间 上 的 向 
量 表示 。 为 了 获取 投影 后 的 文章 表示 与 原始 文章 间 的 联合 匹 
配 表示 。 首先 , 模型 计算 原始 户 与 姻 间 的 特征 向 量 Zh) ， 
获取 和 局 与 柬 间 的 相似 性 ， 然 后 ， 通 过 一 个 单 层 前 向 LS7W， 
为 特征 打分 ， 从 而 得 到 两 者 的 匹配 度 M 。 数 学 过 程 如 下 ， 


Z(hy, hj) =[hp; hi, ho 9h, |, — 5| A Wh] (10) 


M = LSTM (Z(hy,hy)) (11) 


单词 用 于 文章 、 问 题 与 字典 为 条 件 预测 的 结果 进行 输出 ; 
pw =mw=0 时 ， 则 wm 为 OOV 词汇 ,将 其 上 下 文 表示 向 量 


TP 
cr lE 


HES H 


2.2.3 SGN 模型 修正 
重复 是 Seq2Seq 模型 的 一 个 通病 , 即 同义词 的 多 次 出 现 ， 


的 向 量 值 并 将 其 存放 到 字典 中 。 


这 种 现象 在 含 复合 句 的 长 文本 中 的 表现 尤其 明显 ,为 此 ,SGN 


模型 改进 了 替 盖 机 制 来 修正 原来 SGN 模型 ,通过 使 用 一 个 覆 
HÆ, c 通过 对 前 面 的 解码 输出 序列 的 注意 力 分 布 进行 


求 和 : 


意 力 分 布 ， 


6720 (19) 


e, = LSTM (W,h, + W,S, +W,c,+b) (20) 


其 中 : w 能 通过 模型 训练 、 学 到 的 参数 ，as 表示 源 数据 的 注 


即 解码 层 输出 的 概率 分 布 ，c, 表示 的 概率 中 包含 


到 目前 为 止 产生 的 词汇 。 显 然 w=0 ， 第 一 个 解码 单元 的 输入 
不 为 输出 的 词汇 。 
通过 改进 了 覆盖 机 制 , SGN 模型 可 以 保证 现在 注意 力 机 


制 所 做 的 决定 ， 即 从 原文 复制 或 概括 后 从 词典 中 复制 过 来 ， 


都 参考 了 


前 所 做 决定 ， 并 且 能 有 效 避 免 同一 个 单词 或 相似 


单词 的 重复 出 现 ， 从 而 解决 输出 结果 中 产生 的 重复 问题 。 
2.2.4 目标 函数 
SGN 模型 采用 有 监督 的 方式 进行 训练 。 训练 的 输入 特征 


为 阅读 理解 的 文章 D 与 问题 Q, 模型 的 输出 为 预测 的 问题 答 
案 A， 目 标 为 数据 集中 给 定 的 答案 。 生 成 序列 中 ， 模 型 在 注 


意 力 覆盖 范围 内 容易 产生 信息 元 余 本 文 使 用 注意 力 与 覆盖 的 
最 小 值 表示 履 盖 机 制 产 生 的 损失 。 此 外 ， 即 便 阅 读 理 解答 案 


其 中 : w 是 可 以 通过 模型 训练 获得 ，“.” 表 示 和 矩阵 中 每 个 元 
素 点 乘 。 最 后 ， 为 了 表示 一 篇 文章 与 问题 词汇 的 匹配 表示 ， 


模型 添加 一 个 双向 LSTM 聚合 所 有 的 词 匹配 表示 ， 即 
H — BiLSTM (M) (12) 
此 时 ， 文 章 中 第 1 个 词汇 的 注意 力 为 
à! = soft max(H') (13) 


第 i 个 词汇 w 的 上 下 文 向 量 ， 用 当前 隐 含 层 状 态 与 注意 
力 的 加 权 平 来 表示 : 


eam (14) 


2.2.2. 节点 单词 生成 
本 文 的 SGN 模型 是 基于 Seq2Seq 和 Pointer Network!"!, 
姑 为 模型 既 可 以 从 原文 中 复制 原始 词汇 ， 也 可 以 用 问题 与 原 
文 的 隐 含 特征 ， 从 固定 的 字典 中 概括 出 来 。 在 时 刻 t， 词 汇 
生成 的 概率 ps e[0,1 ， 即 当 ps=1 时 ， 模 型 需要 从 字典 中 概括 
Hie; 当 P=0 ， 则 直接 从 文章 词汇 中 进行 复制 ， 其 功能 
表达 式 如 式 〈15) 所 示 。 

p, = sigmoid (W,h, + W,d, + W,S, +b) (15) 
其 中 :hh 为 当前 时 刻 t 上 的 上 下 文 向 量 ， 4d 为 Seq2Seq 解码 
在 时 刻 t 隐 含 层 的 状态 ; S 解码 层 的 输入 ; b 为 偏差 。 这 些 
参数 都 可 通过 模型 训练 、 学 习 而 获得 。 选 择 文章 中 词汇 或 者 
生成 单词 表 中 的 词汇 ，SGN 添加 了 一 个 门 选择 操作 ， 用 来 决 
定单 词 源 : 


p(w, 2 w) = p,p, t (0L — p,)a,, (16) 


[^] 
a, = È An a7) 


2 


能 直接 从 原文 以 及 字典 中 进行 复制 ， 或 者 自行 生成 ， 结 果 间 


依旧 存在 差异 。 目 标 函 数 中 节点 生成 产生 的 代价 为 总 代价 的 


CD 


实验 


平均 值 。 所 以 目标 函数 定义 如 下 : 


J -log p(y* Q,D)«1 >» log p(w,) 
TA 

(21) 

+ Y min(a, c) 


首先 介绍 实验 所 采用 的 数据 集 一 一 斯 坦 福 阅 读 理解 数据 


集 (SQuADU9);, 然后 说 明 模 型 参数 的 设置 ， 最 后 对 比分 析 


效果 最 佳 模型 与 实验 采用 的 基准 模型 的 实验 结果 。 


3.1 数据 集 


SQuAD 数据 集 包含 536 篇 文档 ， 以 及 超过 1 000 000 个 


juni 


题 的 答案 。 
变 长 序列 。 


验证 集 包 含 10 570 AH 


日 专业 人 士 根 据 文档 信息 提出 的 问题 。 提 问 者 是 根据 自己 对 
文档 的 理解 与 认 知 ， 提 出 相对 应 的 问题 ， 而 不 是 直接 从 文档 
中 提取 短语 或 句子 作为 问题 。 此 外 ， 提 问 者 还 给 出 了 对 应 问 


答案 是 用 文档 中 词 、 短 语 或 者 句子 片段 等 构成 的 
SQuAD 数据 集中 ， 训 练 集 包 含 87599 个 实例 ， 
， 测 试 集 数据 则 未 公开 。 实 验 部 分 


mx 


将 使 用 公开 两 部 分 数据 集 (将 近 整 个 数据 集 9090). 来 验证 模 


型 。 然 后 将 已 获得 数据 集 进行 随机 划分 为 训练 集 、 验 证 集 、 


测试 集 ， 
10%. 


E 


占 已 获得 数据 集 的 百分比 分 别 为 8096. 10960 


模型 SGN 需要 归纳 文章 ， 然 后 对 齐 问题 给 出 最 终 答 案 ， 


SQuAD žr 


居 集 仅 提 供 答案 片段 ,。 为 此 , 实验 前 需要 对 数据 进 


录用 定稿 € x, 


行 预 处 理 ， 将 数据 集中 的 答案 根据 问题 结构 获取 答案 对 齐 i 
题 的 标准 化 形式 。 答 案 标 准 化 流程 为 : 使 用 人 工 定义 规则 ; 
然后 使 用 HMM 标注 数据 获取 答案 的 主体 部 分 ， 最 后 用 依赖 
树 09] 对 主体 词 分 词 ， 并 用 答案 替换 主体 词 树 型 结构 中 的 疑问 
词 部 分 ， 得 到 标准 答案 。 为 了 获取 标准 化 的 准确 度 ， 使 用 公 
开 两 部 分 数据 集中 90% 的 数据 训练 机 器 标注 、10% 测 试 标注 
的 准确 度 ， 并 且 从 测试 的 最 终结 果 中 随机 抽取 1 000 条 数据 
进行 人 工 评测 。 标 注 实验 的 准确 率 为 96. 231%， 其 中 产生 错 
误 的 因素 包括 OOV 词汇 、 原 文 标注 不 准确 ， 以 及 错误 的 语 
义 分 词 。 本 实验 最 终 采用 的 数据 集 是 在 标准 化 的 实验 结果 上 
再 次 进行 人 工 标注 数据 。 其 中 ， 数 据 集 的 部 分 结果 如 表 1 所 
ze 


Bj 


TL 


表 1 标注 后 的 部 分 案 侦 
Table 1 
文章 : With an estimated completion date of 2020, the Barack Obama 


Example cases after labeling 


Presidential Center will be housed at the university and include... 
问题 : In what year will the Barack Obama Presidential Center be 
finished? 

标注 后 答案 : In 2020 


文章 :the extinction of the dinosaurs and the wetter climate may have 


allowed the tropical rainforest to spread out across the continent. 
问题 : Which type of climate may have allowed the rainforest to 
spread across the continent? 


标注 后 答案 


: the wetter climate 


文章 : Around the world many governments operate teacher's 


colleges, which are generally established| to serve and protect thej 


public interest) through certifying 


问题 : Why would a teacher's college exist? 


标注 后 答案 : To serve and protect the public interest 


其 中 文章 中 的 方 框 为 SQuAD 数据 集 给 出 的 标准 答案 。 
本 实验 通过 采用 SQuAD 答案 标准 化 后 的 数据 集中 包含 
HJ «Q.D.A» 元 组 对 训练 SGN 模型 的 参数 ， 并 验证 模型 的 合 
理性 与 准确 性 。 
3.2 实验 设置 
电脑 配置 Intel/Xeon E5-2683V3 14 核 28 线程 ，NVIDIA 
GTX 1080 显卡 , 32 GB 内 存 , 并 使 用 Tensorflow 深度 学 习 框 


等 : 一 种 针对 机 器 阅读 理解 中 答案 获取 的 序列 生成 模型 
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机 初始 化 并 且 服 从 区 间 [-0.05，0.05] 上 的 均匀 分 布 。 网 络 
的 隐藏 层 的 使 用 的 参数 为 一 个 随机 初始 化 的 正 交 和 气 阵 。 本 文 
给 出 的 答案 生成 的 实验 结果 是 在 重新 划分 的 数据 集 上 获取 的 
结果 。 对 于 OOV 问题 ，SGN 模型 没有 预先 对 词 嵌 入 层 进行 
训练 ， 而 是 在 训练 的 过 程 中 让 模型 自行 学 习 、 获 得 当前 抓 取 
词汇 的 向 量 表达 。 

实验 首先 实现 了 SGN， 即 基于 Match-LSTM 的 SGN 网 
络 ; 然后 在 SGN 上 扩展 了 改进 的 覆盖 机 制 ， 记 为 
SGN-«Coverage, Eis H (21) 的 代价 函数 ;为 了 证 
明 SGN+Coverage 匹配 层 的 作用 , 实现 了 去 除 匹 配 层 的 SGN, 


即 用 600 神经 元 的 双 层 LSTM 网 络 蔡 换 Match-LSTM 匹配 层 ， 
再 依据 概率 分 布 抽 取 局 部 权 值 最 大 的 词汇 。 

实验 采用 的 基准 模型 为 Seq2Seq+attention 模型 ， 其 中 模 
型 的 参数 由 SQuAD 答案 标准 化 后 的 数据 集 的 训练 集 进行 训 
练 ， 最 优 模型 的 参数 选择 则 用 验证 集 上 损失 最 低 的 一 组 参数 


值 。SGN 选择 生成 文本 操作 与 Gu 等 人 [23] 设 计 的 CopyNet 
类 似 。 为 了 验证 两 者 的 性 能 ， 实 验 首先 使 用 CopyNet 预先 定 
义 的 参数 设置 ， 使 用 SQuAD 答案 标准 化 后 的 数据 集训 练 模 
型 。 Seq2Seq+attention 与 CopyNet 都 
表 2 测试 集 上 获得 的 ROUGE 值 与 EM 值 
Table 2 ROUGE and EM from test set 


测试 集 
ROUGE-1 ROUGE-2 ROUGE-L EM(Exact Match) 
Seq2Seqxattention (baseline) 53.87 32.82 50.23 33.52 
CopyNet 56.81 36.08 — 53.58 35.79 
SGN 57.49 | 36.27 . 53.66 36.61 
SGN+Coverage 58.43 37.00 5427 37.13 
去 除 匹配 层 的 SGN 56.7 36.21 53.41 36.02 


添加 对 问题 与 文章 进行 编码 的 编码 层 ， 并 且 在 编码 层 共 
享 一 个 权 值 矩阵 。 字 典 外 (OOV) 的 词汇 进行 词 和 入 后 ， 会 被 
映射 到 预先 定义 的 UNK 标记 。 
3.89 结果 分 析 
3.3.1 准确 度 分 析 

SQuAD 提供 了 模型 估计 脚本 ， 本 实验 时 使 用 ROUGE 
(recall-oriented understudy for gisting evaluation) 2 和 准确 
匹配 (exact match, EMO 对 模型 的 输出 结果 进行 估计 ， 实 验 


架 实 现 。 
D 参数 设置 SGN 模型 的 编码 与 解码 隐 含 层 使 用 的 
LSTM Cell 个 数 为 600。 词 向 量 则 在 训练 过 程 中 ， 让 模型 抓 
取 相 应 的 词 向 量 ， 本 文 使 用 的 字典 为 300 维 预 训练 词 向 量 表 


840B-GlovVe20。 小 批量 训练 (2,2,4) 对 的 大 小 为 32。 当 一 个 
比 训练 中 序列 长 度 不 一 臻 时， 选取 中 间 长 度 最 大 的 值 ， 并 且 
长 度 不 足 的 序列 后 面 填补 空白 向 量 ， 其 向 量 值 是 一 个 300 维 


的 0 向 量 。 训 练 过程 中 迭代 数 为 60， 当 在 验证 集 上 连续 3 次 
迭代 后 的 模型 的 准确 度 没 有 得 到 提升 ， 甚 至 出 现 降 低 ， 则 提 


En 


前 停止 训练 。 实 验 保存 模型 在 验证 集 上 代价 最 低 的 一 组 模型 
参数 ， 该 参数 作为 最 优 模型 在 测试 集 上 进行 测试 。 
2) 超 参数 设置 ”使 用 Adam20 算 法 对 模型 参数 进行 优 


化 。 其 中 ， 第 一 动量 系数 betal 和 第 二 动量 系数 beta2 分 别 设 
为 0.9 和 0.999。 初 始 学 习 率 设 为 0.001,epsilon 设置 为 10E-8。 
为 了 加 速 梯度 下 降 过 程 ， 实 验 时 为 全 局 每 1 000 训练 步 长 设 
置 了 大 小 为 0.9 的 衰减 率 。 同时 , 为 了 防止 在 SQuAD 数据 集 
上 测试 SGN 模型 产生 过 拟 合 ,训练 模型 参数 时 添加 了 dropout 
机 制 23， 在 模型 的 输入 端 和 输出 端 、 控 制 层 的 输出 端 随机 关 
闭 隐 含 层 中 15 儿 的 神经 元 。 此 外 ， 词 嵌入 层 的 虑 入 权 值 是 随 


结果 如 表 2 所 示 。 其 中 ， 获 取 自 动 文摘 指标 ROUGE 包括 
ROUGE-N, (N-[L2) 和 ROUGE-L。 自 动 生成 的 摘要 或 翻译 
与 一 组 参考 摘要 (通常 是 人 工 生 成 的 ) 进行 比较 计算 ， 得 出 
相应 的 分 值 ， 用 来 衡量 自动 生成 的 摘要 或 翻译 与 参考 摘要 之 


间 的 “相似 度 ”。 其 计算 公式 为 
» count, 4 (gram, ) 
R E-N- Se( 参 考 摘要 集 ) gram, eS. 
MR > count(gram, ) (22) 
Se( 参 考 摘要 集 ) gram, es 
其 中 : N 为 元 词 个 数 。 
ROUGE-L 的 计算 公式 为 
Ras = lrcsqx,v) (23) 
m 
p. -licsx,y) Q4) 
n 
Fa = 04 RP /CR +B P,, (25) 
其 中 : X 为 参考 摘要 ; KEN m; Y om 长 度 为 n; 


用 准确 率 Pu 值 来 衡量 摘要 X 与 Y 的 相似 度 ， 评 测 过 程 中 
所 以 只 考虑 召回 率 Re EM 值 是 生成 结果 与 目标 答 
案 完全 匹配 的 奖励 。 

从 表 1 可 以 看 出 ， 在 召 


Bow, 


nu 


率 评 估 和 准确 匹配 上 ， 准 确 模 


201901.00060v1 


chinaXiv 


录用 定稿 


Di 


x 


型 在 ROUGE 和 EM 上 的 表现 并 不 是 很 到 


SGN+Coverage 模型 
与 SGN+Coverage 的 输出 序列 与 


于 基准 模型 。 共 


E 想 ,而 SGN 模型 与 


取得 了 一 个 比较 高 的 分 值 ， 
目标 结果 间 的 
中 ， 表 现 最 好 的 SGN+Coverage 提升 的 分 


同时 ，SGN 
匹配 值 也 明显 


值 为 14.56 ROUGE-L, + 4.27 ROUGE-2、+4.04ROUGE-L、 


+3.61EM。 去 除 
取 最 相关 的 词汇 
CopyNet 来 比 ， 在 准确 度 上 仅 


UU RC 


zin Inl il E 308 


只 能 依赖 词 间 的 相关 度 


， 其 分 值 相对 于 基 


准 模 型 


所 提升 ， 但 同 


提升 了 0.23。SGN 与 CopyNet 


相 比 ， 两 者 结构 上 相似 ， 得 到 的 ROUGE 5 EM 值 也 非常 接 
XE. 而 SGN+Coverage 的 分 值 同 CopyNet 比较 , 提升 了 +1.62 


ROUGE-1、+1.01 ROUGE-2、 
SQUAD 数据 集 的 答案 为 文章 


段 ， 所 以 CopyNet 与 SGN 对 源 数据 


基本 相似 ， 获 得 的 实验 结果 很 接近 。 但 使 ) 


优化 SGN 模型 后 ， 模 型 能 在 已 经 预测 出 


并 决定 当前 位 置 应 该 输出 的 词汇 ， 从 而 获得 较 ; 


息 ,所 以 


理由 相信 SGN+Cove; 


+0.69 ROU 


GE-L、 +1.34 EM. 


bP 的 词 、 短 语 以 及 句子 或 句子 片 
Em 


后 所 获得 实验 结果 
改进 的 覆盖 机 制 
的 词汇 上 进行 判断 ， 
确 的 答案 信 


rage 可 以 获得 较 高 


i 
fJ) ROUGE 


值 ， 一 部 分 与 


T SGN 的 


匹配 


EM 


-— 
Ez 


题 信 息 ， 使 结果 与 最 终 
重复 率 分 析 
&| 3 为 SGN 和 SGN+Coverage 在 测试 集中 获取 的 输出 
Fic n Jti] (gram-n，n=1,2,3,4)， 以 及 最 长 公共 子 序列 中 的 
SGN 和 SGN+Coverage 两 者 的 输出 重复 率 比 可 以 


3.3.2 生成 序列 


a 


重复 率 。 上 


看 出 , f) 


改进 的 覆盖 机 


制 | 


Nu 


I 中 单词 


与 
数 少 (所 及 
的 


40.0%: 


30.0% 


的 重复 个 数 ， 


HA 


20.0%- HA 


100% HE 


值 与 数据 集 的 特征 分 不 开 ， 另 一 部 分 取决 
匹配 层 使 得 文章 数据 更 加 依赖 于 潜在 的 
目标 序列 更 加 匹配 。 


的 SGN 网 络 , 能 有 效 减少 生成 
且 其 生成 序列 中 的 n 元 词 的 重复 数 
标 序列 接近 。 虽 然 在 训练 参数 时 ， 对 覆盖 机 制 的 训练 次 


"E 


序 


| 练 次 数 的 0.896 45:8. 1 
4 问题 上 基本 上 得 到 消除 。 


fi 


EE ME Pn HE fe SUR 


hh ⁄ 
His: A 
IA WA 
II 性 pe 
HH We 
Aan! WH jjj s55 A 

f uan | LEE | J 

grams-l grams-2 grams-3 grams-4 LCS 
Z SONJE SGN+Coverage || 目标 答案 
ipn pg -- p EEZ 
图 3 输出 序列 与 目标 序列 中 重复 率 对 比 


Fig.3 Repetition rate comparison among sequences 


3.3.3 案例 分 析 


[| 


部 分 文章 词汇 与 归纳 


示 词 间 的 相关 


到 4 为 SGN+Coverage 与 基准 模型 Seq2Seq 在 验证 身 
序列 中 词汇 的 热力 图 。 其 中 颜色 深浅 表 


上 


YE 


EE. BUCUBACKORGUIHOSEEBUBUm. Adm 


FH 


成 的 序列 来 看 ，Seq2Seq 获得 的 序列 存在 语法 问题 (“claimed 


by") 以 及 事实 细 ? 
为 “appeared in a book”), 7 jJ 
描述 。Seq2Seq 词 


于 字 

最 终 

身 具备 对 新 词 
OOV 的 问题 ， 提 于 


ES 


下 的 描述 错误 C'appeared by ILL", 
18i FF i] H 


原 序列 
的 词汇 蔡 代 事实 性 


了 OOV 词汇 的 召 


H 


嵌入 的 词汇 是 参考 已 经 训练 好 的 字 
中 不 存在 的 词汇 (如 “Gasquet”atra”) 使 用 UNK 标记 ， 
得 到 的 序列 结果 可 读 性 并 不 高 。SGN+Coverage 模型 自 
汇 进 行 学 习 的 能 力 ， 这 在 一 定 程度 上 解决 了 
率 ， 


, 对 


HERIR 


LEJERA. ESk, X EJF A hi “appeared” Æ pk 


生成 J 


描述 。 昌 然 生 成 过 程 中 
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备 被 动 语 态 的 “recorded”, 从 整体 来 看 符合 
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原 序列 的 
向 量 间 的 


相关 度 过 于 随机 ， 但 从 图 4 可 以 看 出 ， 基 于 Seq2Seq 的 


SGN+Coverage 模型 


除了 动态 选择 原 输入 词 向 量 ， 缩 减 了 输 


入 序列 的 长 度 ， 同 时 


[还 通过 适当 地 合并 与 替换 原 词 向 量 ， 使 
得 输出 序列 的 细节 描述 更 加 准确 。 
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Fig.4 Heat map comparison between generated sequences 


4 ”相关 工作 


阅读 理解 对 机 器 来 说 是 个 巨大 挑战 ， 它 要 求 机 器 掌握 人 


类 语言 以 及 各 种 知识 。 最 近 ， 
RERE 


SQuADUSUAT] 


p 
己 经 


Dynamic Chunk 


取 原 文中 的 答案 候选 集 ， 


E 


取 的 方式 进行 机 器 
Reader [1 是 IBM Watson 


VE 


多 神经 网 络 模 型 在 
阅读 理解 验证 。 


提出 , 是 通过 


F 


BA 


然后 对 候选 集 进 行 排 


通过 引入 句法 


言 息 来 理解 阅读 理解 中 的 问题 ， 


E 


介绍 了 一 种 使 用 文章 的 独立 表示 和 文章 对 
取 候 选 答案 ， 并 且 为 候选 答案 打分 ， 模 型 


fo RASOR! 
齐 问题 表示 的 结构 
的 最 终 输出 为 分 


值 最 高 的 候选 答案 。Zhang 4 ADU ET 


经 


网 络 的 基础 上 ， 


TreeLSTM 


EXC Pr PB BS RR) 


Network 中 一 个 动态 


的 问题 单独 建 模 。Wang 等 人 中 I 首次 在 SQuAD 数 ] 
端 对 端的 神经 网 络 进行 测试 ， 通 过 
pointer Network 来 决定 答案 片段 所 在 


E 


使 用 
并 且 对 不 同类 型 
昌 集 上 使 用 


BIDAF (是 通过 使 用 


下 文 。 


CopyNetD3 


贝 机 制 , “复制 " 原 序列 


生成 任务 需要 对 输入 序列 进 


结合 文章 与 问题 ， 并 采用 

立 置 。High Maxout 

解码 的 神经 网 络 ， 用 来 提升 解码 效率 。 
个 双向 注意 力 获取 问题 注意 表示 的 上 


行 抽象 释义 ， 主 要 工作 包括 
， 是 在 Seq2Seq + Attention 的 基础 上 ， 引 入 了 找 


bP 的 重要 信息 并 决定 “粘贴 ”位 


o Du 
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等 人 0 利用 基本 attention 的 问题 生成 模型 , 模型 依据 输入 的 
句子 (段落 ) 生 成 相应 的 问题 ， 从 而 解决 阅读 理解 任务 。 序 列 
对 序列 学 习 模型 COREQAB5 是 通过 编码 一 解码 框架 结合 
制 〈copying) 和 索引 (retrieve ) 两 个 机 制 ， 实 现 答案 生成 。 
GenQAP9! H ETE Seq2Seq 模型 上 处 理 单个 事实 的 简单 问题 。 
Miao APUA Seq2Seq 模型 上 使 用 一 个 用 于 推理 的 变 分 自 
动 编码 器 ， 解 决 阅读 理解 任务 ， 其 生成 模型 首先 从 语言 模型 
中 获取 潜在 的 句子 概括 ， 然 后 根据 潜在 的 总 结 得 到 最 终 的 结 
果 。 


但 是 SGN 为 了 解决 阅读 理解 任务 , 使 用 了 一 个 简单 的 门 
结构 实现 原文 生成 或 者 从 字典 中 复制 两 个 操作 。 此 外 ， 为 了 
获取 原文 向 量 中 更 多 的 潜在 特征 , SGN 通过 在 问题 空间 的 文 
向 量 表示 与 文章 原始 向 量 表示 ， 获 取 两 者 的 匹配 向 量 。 为 
了 解决 同 词 或 同义词 重复 出 现 的 问题 ， 本 文采 用 了 窗 盖 机 制 
修正 Seq2Seq 学 习 模 型 ， 使 得 最 后 实验 的 结果 更 加 准确 。 


5 ”结束 语 


本 文 提出 了 一 种 序列 生成 模型 SGN, 在 文章 与 问题 匹配 
的 基础 上 ， 利 用 节点 生成 的 方式 ， 解 决 生成 序列 中 信息 元 余 
和 表述 不 准确 的 问题 。SGN 使 用 一 个 选择 门 结构 计算 当前 节 
点 的 词 向 量 和 选择 概率 ， 并 利用 选择 概率 选择 基于 匹配 表示 
的 词汇 ， 对 OOV 单词 进行 学 习 并 归纳 到 字典 。 因 为 每 次 仅 
生成 一 个 词汇 ， 所 以 能 解决 生成 序列 过 程 中 产生 的 语义 表述 
问题 。SGN 模型 使 用 改进 了 的 履 盖 机 制 ， 对 SGN 模型 的 解 
码 层 进行 修正 ， 能 够 在 已 经 输出 了 的 词汇 上 解码 当前 词汇 ， 
从 而 消除 生成 序列 中 产生 的 元 余 信 息 。 通 过 SGN 在 答案 生成 
上 的 测试 结果 可 知 ,本文 提出 的 SGN 和 已 有 模型 在 保持 生成 
序列 的 准确 匹配 的 同时 ， 获 得 的 生成 序列 在 细节 描述 上 也 比 
较 准 确 。 在 未 来 的 工作 中 ， 将 对 模型 中 的 选择 门 结构 进行 优 
化 ， 以 便 适 用 于 更 高 阶 阅 读 理解 生成 任务 ， 如 开放 域 的 阅读 


理解 任务 等。 
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